#preferencias offline

DPOP: Optimización directa de preferencias con penalización

Descubre cómo DPOP mejora DPO con penalización selectiva. Logra 5.3% más victorias en AlpacaEval 2.0. Ideal para optimización de preferencias.